iT邦幫忙

2021 iThome 鐵人賽

DAY 4
0
自我挑戰組

初次接觸爬蟲的學習系列 第 4

第一次的爬蟲(2)

  • 分享至 

  • xImage
  •  

那我就延續上一篇的實作吧!
已經將會用到的套件裝上,並且在網站的控制室找到所需的資訊位置,接下來就是撰寫程式啦!
下面我先用express套件來簡單架設伺服器,以便我用來觀看爬蟲下來的結果。
https://ithelp.ithome.com.tw/upload/images/20210909/20141074xq7bs3MiLf.png
然後再利用superagent套件,用.get()的方法來訪問指定頁面,資料將會放在res中。
https://ithelp.ithome.com.tw/upload/images/20210909/20141074ShZrfbOiLn.png
接下來就是用cheerio套件來獲取所需要的資料,頁面返回的資料會在res中,用.load()的方法去尋找指定id中的那些項目,比如說我是要找新聞標題,那標題的資訊在id = pane-news中下拉的…的項目中,就以下方程式碼第27行為例,接下來就是標示出新聞標題以及連結,最後存放在hotNews矩陣中
https://ithelp.ithome.com.tw/upload/images/20210909/20141074ZUIGKIQUMW.png
https://ithelp.ithome.com.tw/upload/images/20210909/20141074qJuYou3JuP.png
下面就是伺服器中跑出的結果
https://ithelp.ithome.com.tw/upload/images/20210909/20141074mjqyXSleO1.jpg
像上面那樣很難看清楚所收集的資料有哪些,所以我在chrome加裝了JSONView擴充功能,使結果能夠更整齊
https://ithelp.ithome.com.tw/upload/images/20210909/20141074WSOtHLvyn4.jpg


上一篇
第一次的爬蟲
下一篇
細節的重要性
系列文
初次接觸爬蟲的學習30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言